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摘要 : [目的 /意义 ] 数 据 驱 动 环境 下 ,探讨 数字 图 书馆 知识 发 现 平台 的 数据 驱动 机 制 和 优化 方案 有 利于 从 
方法 论 认识 层面 为 其 供给 侧 改 革 提 供 理 论 支持 。[ 方 法 /过 程 ] 借 助 系统 动力 学 方法 ,通过 仿真 呈现 数字 图 书馆 
知识 发 现 的 数据 驱动 的 动力 形成 机 制 ;从 绩效 优化 视角 ,运用 粒 计算 方法 为 其 驱动 优化 提供 可 行 方案 。 [ 结果 / 
结论 ] 影响 数字 图 书馆 知识 发 现 的 数据 驱动 因素 主要 包括 数据 维度 、 语 义 关联 维度 、 可 视 化 维度 和 价值 维度 ,从 
维度 的 形成 和 绩效 作用 关系 看 ,数字 图 书馆 知识 发 现 的 数据 驱动 是 一 个 螺旋 式 发 展 的 动态 系统 ,其 绩效 优化 的 
关键 点 就 在 于 数据 的 知识 价值 开发 程度 ,经 实证 研究 ,将 知识 粒度 作为 实现 其 优化 的 切入 点 能 较 好 地 提升 数字 


图 书馆 知识 发 现 的 数据 驱动 效果 。 
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21 世纪 初期 ,S，C，William "将 统计 学 领域 的 数 
据 研 究 拓展 到 先进 计算 领域 ,探讨 了 数据 科学 的 六 大 
类 岳 术 范畴 ,从 独立 学 科 视 角 系统 论述 了 数据 科学 。 
随 着 大 数据 激发 的 DT 时 代 的 初级 转型 ,基于 “数据 ” 
解 梁 “问题 "的 新 一 代数 据 驱 动 方 法 论 认识 成 为 目前 
数 往 科学 研究 范畴 的 新 焦点 ”。 数 据 驱 动 方法 论 从 问 
题 到 数据 又 回归 问题 的 认识 思路 体现 了 第 四 代 研 究 范 
式 尖 数据 密集 型 科学 发 现 范式 的 核心 特征 :物理 对 
象 不 再 是 研究 的 直面 者 ,研究 人 员 只 需 面向 数据 挖掘 
所 需 的 信息 和 知识 ?1 。 这 一 核心 特征 ,使 科学 研究 人 
员 更 接近 问题 形成 的 本 源 。 从 数据 直面 用 户 、 服 务 和 
管理 的 数据 驱动 思维 为 数字 图 书馆 管理 理念 和 服务 体 
系 的 整体 转变 提供 了 契机 。 表 面 用 户 , 陈 臣 等 指出 
图 书馆 个 性 化 服务 应 重视 数据 驱动 的 数据 化 作用 ,为 
用 户 提供 基于 小 数据 分 析 的 精准 画像 。 直 面 服务 , 张 
晓 林 所 针 对 数据 时 代 的 数据 化 新 常态 ,主张 从 民生 短 
板 和 国情 痛 点 出 发 进行 知识 服务 供给 侧 的 结构 性 改 
革 。 王 世 伟 外 则 基于 数据 驱动 在 国家 创新 战略 ,规划 


政策 及 图 情事 业 中 的 基础 战略 地 位 和 助 推 作用 ,提出 
图 情 教育 的 创新 转型 因应 数据 驱动 而 为 .而 谋 、 而 动 。 
王 丹 丹 “ 倡 导 发 挥 数据 驱动 在 图 书馆 建设 中 的 优势 ， 
综合 利用 本 地 数据 和 联合 数据 推动 馆藏 的 系统 化 组 
织 。 承 继 前 人 的 研究 成 果 , 本 文 着 眼 于 数字 图 书馆 知 
识 发 现 应 用 中 的 数据 驱动 ,应 用 系统 动力 学 方法 分 析 
数字 图 书馆 知识 发 现 的 数据 驱动 动力 形成 机 制 ,从 数 
据 驱 动 的 方法 论 认识 层面 为 数字 图 书馆 知识 服务 的 供 
给 侧 改革 提供 理论 支持 ;运用 粒 计算 方法 ,从 影响 知识 
价值 开发 的 源头 出 发 ,为 数字 图 书馆 知识 发 现 的 数据 
驱动 提供 具体 的 优化 方案 ,进而 通过 数字 图 书馆 知识 
发 现 数据 驱动 绩效 的 价值 提升 ,在 深化 数字 图 书馆 数 
据 化 知识 组 织 的 基础 上 ,推进 数字 图 书馆 知识 服务 供 
给 侧 在 数据 化 向 智能 化 螺旋 进 阶 中 的 改革 进程 。 


2 数字 图 书馆 知识 发 现 的 数据 驱动 维度 
数字 图 书馆 的 知识 发 现 服务 程式 是 在 数据 碎片 
化 ,语义 关联 化 .知识 可 视 化 综合 驱动 下 实现 系统 力 化 
形态 由 数据 输入 到 知识 输出 的 转变 过 程 ,以 碎片 化 为 
核心 的 数据 维度 驱动 ,以 深度 语义 广度 关联 为 导向 的 
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语义 关联 维度 驱动 ,以 视觉 表征 .意义 构建 和 推理 预测 
为 主要 内 容 的 可 视 化 维度 驱动 以 及 以 数据 柔 术 性 和 数 
据 洞 见 性 为 知识 转化 衡量 标准 的 价值 维度 驱动 构成 了 
数字 图 书馆 知识 发 现 的 驱动 逻辑 主线 ,具体 的 驱动 维 
度 以 及 所 涉及 的 要 素 和 属性 如 下 : 
2.1 数据 维度 

数字 图 书馆 的 知识 发 现 是 从 数据 直面 问题 ,实现 
不 同 结构 (结构 化 , 半 结 构 化 和 非 结构 化 ) 数 据 的 碎片 
化 .语义 关联 化 ,可视化 .知识 化 的 递 阶 解 构 , 致 力 于 数 
据 向 知识 资本 转化 的 挖掘 、 解 析 、 创 造 与 领域 知识 应 
用 。 在 结构 化 导向 的 数据 维度 层面 ,主要 涉及 以 下 要 
素 :数据 质量 ,数字 图 书馆 知识 发 现 的 数据 维度 质量 
属性 包括 数据 源 的 正确 性 和 完整 性 以 及 数据 的 一 致 
性 连续 性 .时效 性 、 精 确 性 、 自 描述 性 和 形式 化 程度 ， 
还 有 数据 的 精度 和 同步 程度 等 ;@ 数 据 结构 ,是 指 可 以 
时 维 表 结 构 来 逻辑 表达 实现 的 程度 ,数字 图 书馆 文 
识 发 现 的 对 象 是 非 结构 化 数据 ,数据 库 知识 发 现 
的 两 象 是 结构 化 数据 ;@ 数 据 相关 性 , 指 的 是 数据 的 相 
养性 分 析 方式 ,数据 驱动 下 的 数字 图 书馆 知识 发 现 主 
要 地 过 数据 的 相关 性 分 析 而 非 因果 分 析 去 分 析 和 解决 
问题 ,数据 本 身 的 相关 性 程度 与 特征 对 隐 性 知识 的 挖 
气 和 规律 发 现 具有 重要 作用 ;@ 数 据 加 工程 度 ,是 指数 
据 阐 项 处 理 程度 ,一 般 涉 及 数据 的 审计 清洗 变换, 拍 
象 = 末 成 .标注 .排序 等 要 素 。 
语义 关联 维度 
忆 数 据 驱 动 下 数字 图 书馆 的 知识 发 现 服务 是 面向 具 
有 语义 分 析 和 关联 特性 的 “语义 互联 网 "的 ,以 语义 概 
低下 义 类 型 .语义 关系 ,语义 标注 .语义 推理 为 核心 要 
素 的 语义 化 和 以 关联 结构 .关联 强度 和 关联 规则 为 核 
心 要 素 的 关联 化 融合 驱动 着 数字 图 书馆 知识 发 现 的 实 
现 ,两 者 交叉 作用 下 的 语义 关联 驱动 维度 主要 涉及 以 
下 内 容 :@ 语 义 概念 ,其 是 描述 数据 本 身 的 具有 语义 属 
性 的 概念 单元 ,相同 属性 的 语义 概念 通过 聚合 生成 语 
义 类 型 ;@ 语 义 关系 ,对 数据 之 间 的 内 在 联系 的 呈现 ， 
通过 逻辑 三 元 体 的 语义 角色 和 动词 核心 作用 进行 呈 
现 ,LSR(labeled semantic relations ) 作为 带 标 记 的 语义 
关系 既 能 呈现 概念 间 关 系 , 又 能 呈现 关系 类 型 ;@ 语 义 
标注 ,通过 语义 元 数据 将 实体 的 概念 ,属性 和 关系 等 值 
与 相应 的 语义 描述 进行 关联 语义 化 的 过 程 ”"”。@ 语 义 
推理 ,是 借助 特定 的 意义 公设 手段 ,应 用 语义 系统 框架 
揭示 词 项 语义 结构 和 语义 关系 的 推理 方法 ;@ 关 联结 
构 ,通过 数据 结构 表示 或 特定 方法 呈现 数据 实体 的 内 
外 部 关联 特性 ;@ 关 联 关系 ,实体 与 实体 间 直 接 或 间 


接 、 隐 性 或 显 性 的 结构 化 关系 ;中 关联 规则 ,可 以 用 X 
一 Y 的 列 涵 式 表达 , X 和 YY 分 别 是 关联 规则 的 先导 和 
后 继 , 具 有 支持 度 .信任 度 和 强 弱 之 分 , 强 关 联 规则 是 
指 同 时 满足 用 户 定义 的 最 小 支持 度 阔 值 和 最 小 置信 和 度 
国 值 的 关联 规则 。 综 合 来 看 ,有 关 语 义 关联 维度 驱动 
的 要 素 属 性 涉及 语义 相似 度 .语义 距离 .语义 相关 度 、 
语义 重合 度 .语义 匹配 度 .语义 粒度 .语义 隶属 度 .语义 
羊 径 .语义 权重 ,语义 贴近 度 .标签 广度 .链接 广度 . 链 
接 座 度 .关联 维度 .关联 强度 .关联 阶 度 和 关联 粒度 
等 ”。 
2.3 可 视 化 维度 

可 视 化 维度 驱动 的 知识 发 现 既是 数据 知识 网 络 形 
态 呈 现 的 过 程 ,又 是 知识 分 析 与 预测 的 知识 规律 发 现 
和 和 领域 知识 探索 的 过 程 ,借助 发 现 平台 内 内 的 可 视 化 
技术 以 静 动 态 的 知识 网 络 图 谱 为 用 户 呈 现 满足 其 目标 
今 索 解读、 预测 等 任务 基础 上 的 具有 视觉 表征 和 智能 
化 雏形 特征 的 知识 域 ,其 主要 涉及 以 下 要 素 : 中 视觉 表 
征 ,是 指 可 视 化 的 视觉 呈现 形式 ,一 般 分 为 呈现 为 视觉 
物质 材料 的 表层 形式 (如 形状 、 色 彩 、 机 理 等 ) 和 呈现 
空间 关系 的 深层 形式 (如 和 谐 、 对称、 均衡 、 忆 奏 等 ) ; 
@) 意 义 构建 ,是 指 主体 对 视觉 感知 的 信息 ,基于 过 往 经 
验 修正 和 知识 结构 演化 而 形成 的 新 的 理解 的 视觉 思 
维 ;@G) 知 识 网 络 结构 ,反映 著者 、 机 构 ,期刊 等 之 间 的 合 
作 关 系 网 络 情况 以 及 引文 分 析 的 耦合 . 共 被 引 ` 共 现 关 
系 网 络 结构 情况 等 ;加 知识 网 络 测 度 ,是 指 衡量 知识 网 
络 结构 的 指标 ,包括 中 心 势 .中 心 度 (具体 包括 节点 中 
心 度 .群体 中 心 势 .紧密 中 心 度 .间距 中 心 度 ) .平均 路 
径 长 度 .凝聚 子 群 等 ;名 时 间 序 列 , 其 是 通过 时 间 先 后 
顺序 排列 反映 同一 统计 指标 数值 变化 情况 以 呈现 实体 
发 展 脉络 并 辅助 预测 的 数值 ,通过 时 间 序 列 对 数据 基 
于 用 户 空间 域 进行 知识 挖掘 、 聚 类 和 分 析 更 有 利于 开 
发 平台 数据 的 知识 价值 。 此 维度 涉及 的 主要 属性 包括 
视觉 隐喻 度 ,视觉 通道 畅通 度 .视觉 突出 性 、 符 号 化 程 
度 k -核子 网 . 聚 类 系数 载荷 度 .引文 长 度 . 引 文 频 
次 耦合 度 .主体 相关 度 .主体 可 控 度 和 主体 知识 结构 
等 。 
2.4 价值 维度 

数字 图 书馆 知识 发 现 的 数据 驱动 功能 在 于 实现 
“数据 一 用 户 一 知识 发 现 " 服务 空间 的 良性 循环 ,数据 
的 价值 维度 作为 循环 过 程 中 直接 接近 数据 驱动 绩效 的 
动力 源 ,关系 着 数据 输入 端 到 知识 输出 端的 转化 能 
主要 包含 以 下 因素 :中 数据 柔 术 ,指数 据 转 化 成 数据 产 
品 的 能 力 , 即 成 品 性 ,商品 性 ;@ 数 据 洞 见 , 即 数据 能 
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发 现 且 自身 带 有 信息 价值 的 程度 ,其 与 主体 的 数据 意 
识 \ 经 验 和 分 析 能 力 息 息 相 关 ;(3 数 据 资 产 , 其 是 数据 
从 资源 向 资产 的 转变 ,可 以 对 数据 进行 定价 .产权 归 
属 ,交易 等 ”” 。 


3 ”数字 图 书馆 知识 发 现 的 数据 驱动 机 制 
数字 图 书馆 知识 发 现 平台 的 数据 驱动 强调 的 是 基 

于 数据 解决 问题 的 求解 过 程 中 用 户 需求 与 服务 的 解 

看 ,其 动力 来 源 是 数据 维度 ,语义 关联 维度 .可视化 维 


和 知识 网 络 结构 是 内 生动 力 ;意义 构建 和 时 间 序 列 是 
外 源 动力 ;知识 网 络 测度 既 以 内 生动 力 形式 驱动 于 知 
识 发 现 ,也 以 外 源 动 力 形式 间接 作用 于 知识 发 现 。 价 
值 维度 层面 , 受 数据 主体 的 影响 ,数据 柔 术 数据 洞 见 、 
数据 资产 都 以 外 源 作 用 力 形 式 对 数字 图 书馆 的 知识 发 
现 进行 驱动 。 整 体 上 ,数字 图 书馆 知识 发 现 的 内 生 驱 
动力 来 源 于 数据 维度 和 与 语义 关联、 可 视 化 因素 作用 
的 本 吴 , 外 源 驱动 力 是 有 关 数 据 化 .语义 -关联 -可 视 
化 相关 的 技术 因素 本 身 , 此 外 ,与 绩效 挂钩 的 数据 的 价 


度 和 价值 维度 融合 驱动 下 的 各 要 素 , 通 过 对 各 维度 要 
素 动力 类 型 的 分 析 , 能 够 清晰 明 辩 数字 图 书馆 知识 发 
现 数据 驱动 的 动力 形成 机 制 。 

从 数字 图 书馆 知识 发 现 数据 驱动 的 各 维度 要 素 
大 5 驰 动 知识 发 现 过 程 的 动力 源 主要 有 两 种 :一 种 是 与 
数据 .语义 关联 、 可 视 化 本 身 相关 的 内 部 动力 , 即 内 生 
动 办 ;一 种 是 受 外 部 条 件 影响 而 使 各 维度 要 素 产生 动 
能 的 外 部 动力 , 即 外 源 动力 ;基于 此 ,本 文 从 系统 动力 
北 现 常用 动力 类 型 一 一 内 生动 力 和 外 源 动力 对 数字 图 
书馆 知识 发 现 的 数据 驱动 维度 要 素 进行 类 型 划分 与 归 
jE 总体 如 表 1 所 示 : 
数字 图 书馆 知识 发 现 的 数据 驱动 要 素 和 动力 类 型 


要 素 动力 类 型 
数据 质量 内 生动 力 
数据 结构 内 生动 力 
数据 相关 性 内 生 / 外 源 : 动力 
数据 加 工程 度 外 源 动 力 
语义 概念 内 生动 力 
语义 关系 内 生动 力 
语义 标注 外 源 动力 
语义 推理 外 源 动 力 
关联 结构 内 生动 力 
关联 关系 内 生动 力 
关联 规则 外 源 动 力 
可 视 化 维度 视觉 表征 内 生动 力 
意义 构建 外 源 动 力 
知识 网 络 结构 内 生动 力 
知识 网 络 测度 内 生 / 外 源 ' 动力 
时 间 序 列 外 源 动力 
价值 维度 数据 柔 术 外 源 动力 
数据 洞 见 外 源 动力 
数据 资产 外 源 动力 


注 : 标 注 ， 的 为 侧重 的 动力 类 型 
在 语义 关联 维度 层面 ,语义 概念 .语义 关系 ,关联 
结构 ,关联 关系 都 是 内 生动 力 ;语义 标注 ,语义 推理 , 关 
联 规则 都 是 外 源 驱动 力 。 可 视 化 维度 层面 ,视觉 表征 


值 要 素 也 在 数据 主体 的 主观 因素 变动 作用 下 对 知识 发 
现 产 生 间 接 驱 动作 用 。 各 维度 要 素 具 体 的 动力 驱动 双 
向 因 果 关系 见 图 1。 

从 力 的 作用 形式 来 看 ,内 生动 力 是 与 各 驱动 维度 
要 素 本 身 密 切 相关 的 动力 源 , 是 各 要 素 本 身 通 过 内 生 
力量 进行 直接 驱动 的 作用 形式 ;外 源 动力 是 各 驱动 维 
度 要 素 以 外 生 力 的 作用 形式 产生 驱动 作用 ,不 直接 作 
日 于 实体 。 如 表 1 所 示 ,数字 图 书馆 知识 发 现 各 维度 
要 素 的 数据 驱动 作用 形式 较为 显著 ,而 各 维度 在 不 同 
要 素 的 影响 下 其 驱动 形式 呈现 非 单一 状态 , 除 价值 驱 
动 维度 外 ,其 他 驱动 维度 既是 内 生 力 又 是 外 源 力 。 在 
数据 驱动 维度 层面 ,数据 质量 和 数据 结构 都 以 内 生 力 
的 形式 对 数字 图 书馆 知识 发 现 产 生 直 接 的 数据 驱动 作 
;数据 相关 性 从 分 析 思 维 角度 以 外 源 力 形式 产生 驱 
动作 用 ,从 相关 程度 角度 以 内 生 力 形式 直接 驱动 于 知 
识 发 现 ;数据 加 工程 度 以 外 源 作用 形式 间接 作用 于 知 
识 发 现 。 

如 图 1 所 示 , 数 字 图 书馆 知识 发 现 的 数据 驱动 是 
内 生动 力 和 外 源 动力 综合 作用 的 结果 。 数 据 维 度 驱 动 
的 数字 图 书馆 知识 发 现 是 以 内 生动 力 为 主 , 且 除 数据 
质量 和 数据 结构 外 ,各 驱动 要 素 间 的 关系 呈正 向 性 ,总 
体 的 驱动 作用 力 大 小 受到 数据 质量 、 数 据 结 构 .数据 加 
工程 度 和 数据 相关 性 的 影响 ,并 且 受 数据 加 工程 度 的 
影响 较 大 。 语 义 关联 维度 驱动 的 数字 图 书馆 知识 发 现 
受 内 生 力 和 外 源 力 的 双重 影响 , 且 语 义 概念 .语义 关 
系 .关联 关系 和 关联 规则 的 驱动 作用 力 更 大 , 除 影响 语 
义 关 系 的 可 用 性 和 一 致 性 属性 外 ,其 他 因素 间 及 属性 
间 的 作用 关系 均 成 正 向 性 。 可 视 化 维度 和 价值 维度 分 
别 驱 动 的 数字 图 书馆 知识 发 现 则 更 多 地 提供 外 源 动 
力 ,其 作用 力 大 小 受 知识 网 络 结构 、 知 识 网 络 测度 、 意 
义 构建 和 数据 资产 的 影响 较 大 。 

就 各 维度 作用 的 数字 图 书馆 知识 发 现 数据 驱动 形 
成 动力 关系 而 言 , 系统 动力 学 的 结构 化 思维 贯穿 整个 
驱动 系统 空间 。 其 中 ,数据 维度 是 内 动力 和 外 源 动力 
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™ 
> 图 1 数字 图 书馆 知识 发 现 数据 驱动 形成 动力 因果 关系 


作用 站 ,关系 关上 人 实现 看 义 关联 
和 可 视 化 维度 是 内 生动 力 和 外 源 动力 双重 驱动 的 
找 本 中间 件 ,共同 作用 着 知识 的 转化 率 ;价值 维度 是 内 
振动 力 和 外 源 动力 发 生 作 用 的 直接 绩效 体现 ,通过 反 
馈 风 驱动 的 出 发 点 和 落脚 点 相关 联 。 


E> 


4 ”数字 图 书馆 知识 发 现 数据 驱动 的 绩效 


优化 

4, 安 数字 图 书馆 知识 发 现 数据 驱动 的 绩效 优化 路 径 
ed 
描 于 数据 结构 性 质 的 方法 工具 ,结合 信息 论 中 对 具有 
知 强 初步 性 质 的 信息 的 界定 一 一 比特 加 语义 的 组 合 
( 即 给 一 连 串 比特 构成 的 消息 附 上 语义 ) .知识 表示 转 


换 和 知识 结构 转换 的 等 价 论说 以 及 数字 图 书馆 知识 发 
现 数 据 驱动 场 域 空间 的 结构 性 特征 ,不 难 发 现 :数据 和 
知识 的 结构 性 能 开发 是 提升 数据 - 知识 转化 率 的 关 
键 。 所 以 ,数字 图 书馆 知识 发 现 数 据 驱动 系统 空间 的 
吉 构 主义 视角 进行 驱动 优化 。 而 在 知识 

结构 化 表达 中 ,知识 的 结构 化 程度 是 由 知识 粒度 开 
da ern 
耦合 性 质 将 复杂 的 知识 网 络 转换 为 一 个 较为 简单 的 多 
层次 结构 。 借 助 粒 计算 的 多 粒度 层级 方法 ,本 文 将 通 
过 数据 的 粒 化 实现 粒 化 数据 向 粒 化 知识 的 转化 ,通过 
知识 结构 的 优化 开发 提升 数字 图 书馆 知识 发 现 的 效 
能 。 具 体 的 绩效 优化 思路 如 图 2 所 示 : 


结构 息 ”优化 
粒 结构 
和 粒 计算 “> 
粒度 开发 
CS ee 
ww . 
R 
可 
数 视 
WE 
数据 朗 | | 联 | 医 度 知识 
碎片 化 转化 率 
驱动 作 


图 2 数字 图 书馆 知识 发 现 数据 驱动 的 绩效 优化 路 径 
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4.2 ”数字 图 书馆 知识 发 现 数据 驱动 的 绩效 优化 方法 

粒 计算 能 够 基于 粗糙 集 .模糊 集 、 商 空间 和 云 模型 
的 融合 ,以 多 层次 ,多 粒度 思维 实现 复杂 问题 的 简单 求 
解 。 针 对 数字 图 书馆 知识 发 现 数据 驱动 系统 空间 的 结 
构 化 制约 特性 ,采用 基于 粒 结构 的 粒 计 算 有 利于 顺应 
数据 科学 “基于 数据 解决 问题 "的 思潮 ,通过 知识 粒 化 
的 结构 性 能 提升 加 快 数据 向 知识 的 转化 效率 ,进而 推 
进 数 字 图 书馆 知识 发 现 数据 驱动 的 绩效 优化 。 采 用 粒 
计算 进行 问题 求解 时 ,多 粒度 分 析 是 较为 有 效 的 方法 
之 一 。 多 粒度 分 析 能 够 赋予 数据 以 语义 粒度 属性 , 推 
进 粒 化 数据 向 粒 化 知识 的 语义 进 阶 ,加 快 以 知识 粒度 
为 单元 的 粒 空间 构建 ,进而 实现 知识 的 深度 挖掘 、 发 现 
与 利用 "~ 中。 现 阶段 ,我 国 主流 的 数字 图 书馆 知识 发 
现 平台 主要 是 面向 科研 用 户 并 为 其 提供 语义 检索 服 
务 - 束 合 这 一 现状 ,本 文 以 知识 发 现 平台 的 语义 检索 决 
从 为 研究 对 象 ,进行 具体 的 数据 驱动 绩效 优化 实现 ,将 
优化 的 焦点 聚焦 于 发 现 平台 中 用 户 语义 检索 辅助 决策 
的 乙 效 上 ,结合 多 粒度 粗糙 集 理论 ,采用 多 粒度 分 析 进 
行 检索 决策 的 服务 绩效 优化 。 在 应 用 多 粒度 分 析 方 法 
H 拒 孩 照 求同存异 的 原则 ,从 乐观 多 粒度 融合 视角 进行 
度 决策 的 绩效 判别 和 优化 5 。 
在 多 粒度 粗糙 集 的 数据 建 模 中 ,信息 系统 的 形式 
卓 述 与 关系 数据 库 相似 '”) 。 设 信息 系统 S$ = (U,47， 
有 也:UV, 表示 与 V, 间 的 关系 , 即 对 于 任意 的 ae 
PP, 是 属性 a 的 值 域 。 对 于 任意 的 xe U,x 的 信息 
向 盟 表 示 为 中 :f= | (a) ,Ko la e 4T| 。 在 数字 图 书 
馆 壮 识 发 现 数据 驱动 场 域 中 ,平台 所 提供 的 语义 检索 
渠 晴 是 一 个 完备 的 知识 发 现 决策 辅助 系统 ,根据 以 上 
的 公式 定义 , 设 数 字 图 书馆 知识 发 现 数据 驱动 场 域 中 
用 户 语义 检索 决策 系统 为 : 

DS= |1S,11S,=(U,AT,,|V,| pe } 

Xie U/AT,, i=1,2°,m, I=1,2,°,t,, YeU/ 
1d} ,7=1,2,.…,k 

依据 乐观 多 粒度 粗粮 集 求同存异 ( 即 非 排他 性 ) 
的 核心 思想 ,运用 des( 闷 ) 和 dos(Y) 对 DS 进行 X, 和 
7 的 等 价 描述 , 则 刀 表 示 的 多 粒度 融合 规则 可 以 定义 

Zo:Viides( Xi ) des(¥,), j=1,2,.,k 

该 规则 的 确信 度 Cer 和 支持 度 Supp 表示 为 : 
1 mZ7 1 
IX,l 


Cer (2 ) = max_I | 
1X, NY.,l 
[ar 


10 


| Supp (ZL; maxi- 


根据 多 粒度 粗糙 集 的 性 质 规 则 ,数字 图 书馆 知识 
发 现 数据 驱动 场 域 中 用 户 语义 检索 决策 的 乐观 多 粒度 
粗糙 集 确 信和 度 的 最 大 值 和 最 小 值 分 别 为 1 和 0。 

基于 对 一 组 局 部 变量 因 不 一 致 性 而 难以 有 效 进行 
结果 比较 的 情况 ,应 用 整体 性 思维 进行 判别 是 常用 的 
方法 ,基于 此 ,本 文 从 全 局 决策 的 角度 ,通过 整体 确信 
度 和 整体 支持 度 对 系统 的 绩效 进行 判别 。 用 9° 
(CDS) 和 B?"(DS) 分 别 表 示 其 整体 确信 和 度 和 整体 支持 
度 ,描述 如 下 : 


1 ivl 1 天 


9°( DS) = 2) x Supp (2;), 
°(DS 1 Ee > C Z° 1-C 
B"t J - 1 林 庆 下 总 er ( 六 ) x (1 - Cer 


(2;)) 
4.3 数字 图 书馆 知识 发 现 数据 驱动 的 绩效 优化 实现 

以 数字 图 书馆 知识 发 现 数据 驱动 的 检索 结果 绩效 
优化 为 目标 ,本文 随机 选取 7 名 吉林 大 学 “鼎新 中 文 发 
现 ” 的 学 生 用 户 作为 实验 受 试 对 象 ,进行 基于 “ 粒 结 
构 ” 理 论 优化 思想 的 用 户 检索 决策 绩效 测验 ,用 户 专 业 
背景 不 限 ,检索 内 容 不 限 , 文 献 类 型 选择 期 刊 ,年 份 限 
定 近 五 年 。 数 字 图 书馆 知识 发 现 数据 驱动 场 域 为 用 户 
进行 知识 检索 提供 了 多 种 渠道 ,以 吉林 大 学 数字 图 书 
馆 知识 发 现 平台 为 例 ,高 级 检索 窗口 提供 了 全 部 字段 、 
主题 .摘要 标题 .关键 词 等 不 同 粒度 等 级 的 检索 渠道 ; 
结果 输出 方面 ,提供 了 出 版 日 期 .馆藏 ,学术 性 ` 相 关 性 
和 引文 量 等 排序 方式 ;在 可 视 化 呈现 方面 ,以 相关 性 为 
主要 呈现 依据 ,提供 了 知识 点 、 作 者 和 机 构 等 知识 图 谱 
类 型 。 本 文 以 关键 词 .标题 和 摘要 3 种 不 同 粒度 等 级 
的 检索 渠道 为 条 件 属性 源 ,每 个 条 件 源 下 将 系统 所 提 
供 的 相关 性 .引文 量 和 学 术 性 作为 考核 因素 ,将 用 户 对 
检索 结果 的 满意 和 不 满意 态度 作为 绩效 属性 进行 “ 求 
同 存 异 "的 多 粒度 检索 决策 的 绩效 测验 。 具 体 表述 如 
下 : 

基于 多 粒度 结构 优化 的 数字 图 书馆 知识 发 现 检索 
平台 是 一 个 完备 的 决策 系统 ,定义 为 DS = 173,173, = 
(U,AT, ,| V1 ,cnn,D)1 , 受 试 者 的 3 次 检索 结果 记录 
表示 为 U= (ei ,e,,e3,e4,6;,66,67) ,条 件 属性 D,、D,、 
六 分 别 为 知识 发 现 平 台 关 键 词 . 标 题 \ 摘 要 检索 渠道 
源 的 具体 考核 因素 一 一 相关 性 ,引文 量 与 学 术 性 ,绩效 
属性 为 D= 1Y,N| 。Y 为 满意 ,N 为 不 满意 ,得 到 的 具 
体 粒 结构 空间 见 表 2。 

基于 粒 空间 可 得 : 


CO 一 | | el ,es ,el ,e5 ,7 | ， 


|e ,ec) | ， 
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表 2 多 渠道 检索 决策 粒 结构 空间 集 


六 D1 D2 D3 绩效 
属性 相关 性 引文 量 学 术 性 相关 性 引文 量 学 术 性 相关 性 引文 量 学 术 性 D 
el 低 高 高 高 低 高 低 低 高 N 
e2 高 高 高 高 低 高 高 低 高 Y 
e3 低 高 | 低 高 高 高 高 高 Y 
e4 低 高 高 低 高 高 低 高 高 N 
e5 低 高 高 高 高 高 高 高 总 Y 
e6 高 高 高 名 低 高 高 高 高 Y 
e7 低 高 高 高 高 高 低 低 高 N 
G,=| {ei,es,e6), {es3,er}, {es,er}}, Xs = {ei,er|, Xs = {es)|, Xs = {es,es,e6}, Xs = 
Gs= | {es,es,e6), er,er)l {les}, {esl! [el 


根据 决策 的 绩效 属性 ,得 到 决策 绩效 类 为 :Vidl 则 检索 决策 的 绩效 粒 为 : 态 = |e ,es ,es ,ec1 ,Y= 


= eei ,es ,ec) |ei,es,erl |, |e ,es,e7), 
二 记 各 个 源 47,, i=1,2 ,3 下 的 条 件 粒 分 别 为 : 按照 des(X, 一 des(Y) 的 等 价 描 述 ,3 个 源 的 RULL 
=X = {el,e3,e4,63,67| , Xis = {|e, ,ee), 集 如 表 3 所 示 : 
)¥, = ee ee Xa = |es,es|, Xs = |es,0), 


表 3 多 渠道 检索 决策 粒 结构 空间 RULL 集 


第 一 个 源 第 二 个 源 第 三 个 源 
des Supp Cer des Supp Cer des Supp Cer 
Oxi 2/7 2/5 Yo 2/7 273 XT 0 0 
XY 277 XY] 1/7 1/2 Xa jx | 
ey 3/7 375 XY 1/7 1/2 X31 1/7 1 
X12—Y> 0 0 XY Lz 1/3 有 34 一 > 了 1 0 0 
XY 1/7 jy2 32 一 了 2 2 | 
XY 1/7 1/2 32 一 了 2 0 0 
和 33 一 了 > 0 0 
Ee 1/7 1 
) 多: 由 > 绩效 规则 集 为 . 中 汪 
多 源 乐观 决策 绩效 规则 集 为 : Zo po [e, JAT SY,, Suip = ,ee 
2° :Vi [Te]47 一 了 ， Suup = 广 ， Cer=1,， 本 汪汪 1 1 
Da :Ves AT—Y,, Suup = 了 ， Cer = pa 
Z’ :Vi [e,1AT—>Y,, Sip Cer =1, I 1 1 
7 Zy :VLes AT—Y,, Suup = Cer = 了 本， 
和 1 
Z%: AT,—Y, Eo =1 a 
st Rg et a 0 hs Za :Vi [es]AT >Y,, Su = 了 Cer =1, 
关上 [大 人 [1 1 1 
MS oP Ze: Vles AT SY,, Suup=, Cer=7, 
Z® :Vi [eAT—Y,, Suu 到 Cer=1 ea 1 _ 工 
5137i=TL6sj Li 19 P=， ， 2 :Vle; dAT—Y,, Suup = 了 ， Cer = 本 ， 
A 于 dk 角 佳 度 为 . 
Zo :Vi [es1AT—Y,, Suup = 广 ， Cer =1， 整体 确信 和 度 为 ; 
1 1 1 1 
°(DS) = xl|+ 1 xl 
人 2 2 人 
Zi:V_ile; AT.—Y,,， Suup = 了 ， Cer=3， 人 和 
1 =0. 4 
和 | | as 
DT :Vi [eAT—>Y,, Suup = 本， Cer =1， 


整体 支持 度 为 : 
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图 二 情报 三 作 
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B° (DS) =1 


4 1 1 se + 
ls | 3 | 


< | x 于 )]+ 了 Xx)) =0.73016 


全“ 沁 3 3 

从 整体 看 来 ,乐观 多 粒度 决策 的 整体 确信 度 和 支 
持 度 都 较 好 。 采 用 十 字 交 又 验证 方法 ,通过 上 聚 类 系数 
的 个 数 增 减 效果 比较 其 决策 的 合理 度 ,通过 聚 类 分 析 ， 
得 到 的 数字 图 书馆 知识 发 现 数据 驱动 场 域 中 用 户 语义 
今 索 的 多 粒度 粗 燃 集 决策 绩效 合理 度 如 图 3 所 示 : 


0.8 + 
0.7 
0.6 + 一 人 一 k=1 
正 10.51] ~” = k=2 
> 04 —— k=3 
i 一 > 一 k=4 
02 
01 和 
LO 澡 一 @ 一 k=6 
™ 1 交 3 4 i 6 8 
(© 离散 箱 数 
OO i 
@ 图 3 基于 多 粒度 粗糙 集 方法 的 数字 图 书馆 
~ 知识 发 现 数据 驱动 的 语义 检索 决策 
©O 绩效 优化 效果 
CD 


ON 由 图 3 所 示 , 分 别 考 虑 聚 类 数 从 1 到 6 进行 用 户 
请 出 检 索 途 径 的 正确 性 预测 实验 测试 ,从 上 文 分 析 结 
果 来 看 , 当 K=2,3 时 ,通过 乐观 决策 提升 其 驱动 绩效 
是 狠 为 合理 的 ,多 粒度 粗糙 集 在 绩效 优化 中 的 优势 明 
显 6 多 粒度 决策 对 用 户 语义 检索 的 知识 发 现 服务 辅助 
效 第 良好 。 当 数量 离散 箱 数 为 4 时 ,到 类 个 数 为 3 时 ， 
gp tl 
求知 识 发 现 平台 为 用 户 提供 综合 关键 词 . 标 题 . 摘 要 
三 者 的 检索 决策 渠道 时 ,用 户 检索 到 的 知识 信息 最 佳 ， 
平台 的 检索 绩效 最 优 。 

通过 对 检索 决策 的 聚 类 对 比 ,采用 单 粒度 方法 是 
无 法 较 好 满足 用 户 语义 检索 要 求 的 ,借助 多 粒度 方法 ， 
能 更 全 面 .更 准确 地 为 用 户 利用 知识 发 现 平台 进行 语 
义 检索 提供 决策 支持 。 在 多 粒度 乐观 决策 下 ,系统 对 
用 户 的 决策 匹配 按照 “求同存异 "能 够 针对 用 户 不 同 
的 检索 目标 进行 多 渠道 检索 决策 的 匹配 与 交叉 融合 ， 
通过 关键 词 .标题 摘要 的 综合 交叉 检索 ,系统 能 够 为 
用 户 提供 更 优化 的 检索 决策 支持 ,帮助 用 户 尽 可 能 搜 
索 到 更 全 面 .更 精准 、 更 符合 其 检索 需求 的 知识 信息 。 

本 文 对 数字 图 书馆 知识 发 现 平台 检索 决策 的 绩效 
通过 正确 性 进行 绩效 效果 判定 ,依据 阔 值 考察 粒 计算 
中 多 粒度 粗糙 集 对 数字 图 书馆 知识 发 现 数据 哎 动 绩 间 
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优化 的 实现 程度 。 总 体 上 ,应 用 多 粒度 粗糙 集 对 数字 
图 书馆 知识 发 现 数据 驱动 进行 绩效 优化 是 有 效 的 , 采 
用 多 粒度 进行 语义 检索 对 数据 向 知识 转化 的 速率 提升 
有 较 好 的 效果 。 在 用 户 的 语义 检索 过 程 中 ,应 用 多 渠 
道 的 综合 检索 途径 能 够 更 好 地 发 挥 数 字 图 书馆 知识 发 
现 平台 对 数据 资源 的 知识 挖 据 .整合 和 分 析 性 能 ,针对 
用 户 的 检索 需求 提供 更 好 的 检索 结果 ,提升 线 上 馆藏 
数据 资源 向 满足 用 户 需 求 的 知识 资源 的 转化 效率 , 提 
升 数据 驱动 下 数字 图 书馆 知识 发 现 的 服务 能 力 ,进而 
推进 密集 型 数据 科学 范式 下 ,由 以 往 受 用 户 碎片 化 和 
知识 化 需求 侧 牵 引 的 服务 推荐 向 主动 式 多 粒度 层级 空 
间 的 数字 图 书馆 知识 服务 供给 侧 的 发 展 转变 。 


大 数据 环境 下 ,对 数字 密集 型 科学 的 关注 正在 成 
为 一 种 趋势 ,面向 学 科 领 域 ,数字 图 书馆 服务 能 否 从 以 
往 粗 放 型 转变 至 精准 型 ,开启 数字 图 书馆 服务 转型 发 
展 的 新 方向 ,实现 从 资源 发 现 到 知识 发 现 的 转变 ,是 值 
得 我 们 认真 思考 并 加 以 解决 的 关键 问题 。 数 据 驱 
动 下 数字 图 书馆 知识 发 现 服务 的 系统 力 化 作用 ,由 输 
入 端 数据 通过 数据 化 碎片 化 .语义 化 ,关联 化 可视化 
的 联合 驱动 ,向 具有 智能 化 性 质 的 知识 进 阶 。 从 影响 
数字 图 书馆 知识 发 现 数 据 驱动 的 数据 维度 、 语 义 关联 
维度 .可 视 化 维度 和 价值 维度 的 成 因 关系 看 ,数字 图 书 
馆 知 识 发 现 的 数据 驱动 是 一 个 螺旋 式 发 展 的 动力 生态 
系统 ,其 优化 的 最 终 目标 是 实现 数据 资源 的 知识 价值 
开发 。 面 向 价值 共 创 ,数字 图 书馆 知识 发 现 的 数据 驱 
动 优化 在 综合 考虑 各 因素 绩效 作用 关系 的 基础 上 , 借 
助 知识 结构 优化 的 多 粒度 方法 ,能 够 在 数据 化 向 知识 
化 的 数字 图 书馆 知识 发 现 服务 供给 侧 结构 改革 中 加 速 
知识 价值 的 转化 效率 ,为 用 户 的 语义 检索 提供 更 智能 
的 检索 决策 服务 。 
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Research on Data Driven Mechanism and Performance Optimization 
of Knowledge Discovery in Digital Library 
LiJie BiQiang Xu Pengcheng Mou Dongmei? 

:School of Management, Jilin University, Changchun 130022 

: “School of Public Health ,Jilin University ,Changchun 130021 
Abstract: [Purpose/significance | Under the data -driven environment, exploring the data -driven mechanism and 
optimyization scheme of knowledge discover platform of digital library is conducive to provide theoretical support for supply 
-de reform from the perspective of methodology. [Method/process| By means of the system dynamics method, the data 
-driven dynamic formation mechanism of digital library knowledge discovery is presented through simulation. From the per- 
sp of performance optimization, the granular computing method is used to provide a feasible solution for its drive op- 
tiMiiZation. [ Result/conclusion | The data driving factors that influence the knowledge discovery of digital library mainly 
inqlade data dimension semantic association dimension, visualization dimension and value dimension. From the perspec- 
tivesof the formation of dimensions and the role of performance, the data drive of digital library knowledge discovery is a 
dyflamic system of spiral development, the key point of performance optimization lies in the exploitation degree of know]- 
edbe value of data. The knowledge granularity as the starting point to achieve its optimization can better improve the data 

-driven effect of digital library knowledge discovery, according to the experimental studies. 


Keywords: digital library knowledge discovery data driven 
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